做数据分析不求人!借助ChatGPT的12种Python库,轻松搞定高质量图表制作,中文显示无压力
引言
之前我写了2篇文章,介绍新升级后的ChatGPT数据分析功能。
不只是快,新版 ChatGPT 数据分析体验全记录,分享超实用 AI 提示词,助你轻松驾驭复杂数据分析
今天深入介绍一下如何用GPT更好地帮助我们做数据分析。
GPT用的数据分析主要是Python库,我问了下GPT,它现在有12种关于数据分析的Python库。
主要数据分析Python库介绍
数据操作与数值计算
Pandas:用于数据操作和分析,特别适合处理数据框(DataFrame)。 NumPy:用于数值计算,特别适合处理数组和矩阵操作。
基础数据可视化
Matplotlib:用于创建静态、动画和交互式可视化图表。 Seaborn:基于Matplotlib的统计数据可视化库,适用于绘制复杂的数据可视化图表。
交互式数据可视化
Plotly:用于创建交互式图表和仪表板。 Bokeh:用于创建交互式和可扩展的网络可视化图表。 Altair:基于Vega和Vega-Lite的声明式可视化库,适用于创建复杂且交互性强的图表。
统计建模与机器学习
Scikit-learn:用于机器学习和数据挖掘,提供各种分类、回归和聚类算法。 Statsmodels:用于统计建模和计量经济学分析。
科学与工程计算
SciPy:用于科学和工程计算,提供许多高效的数值计算算法。
地理数据处理与可视化
Geopandas:用于地理数据的处理和绘图,扩展了Pandas的数据结构以支持地理信息系统(GIS)功能。
网络与图结构分析
NetworkX:用于创建、操作和研究复杂网络和图的结构、动态和功能。
实例分享
这里我使用的提示词是:
请用我上传的字体做出我所需要的图表,折线图,中文显示,提供HTML下载链接
图表中通常包含文字的主要部分:
标题 轴标题 图例 数据标签 轴刻度标签 图表说明或副标题 数据源 单位说明 注释
简单来说,我将得意黑字体otf文件、CSV表格和上述提示词发给了GPT。
默认生成的表格样式
强调1-9完整要素后的图表样式
不同库生成的图表对比
在GPT的代码运行处理里可以看到它用的是哪一个python库。
Matplotlib 示例
生成的x轴时间格式出错。
Plotly 示例
Seaborn 示例
同样,这里时间格式也出错,让GPT修改后效果如下:
Bokeh 示例
生成的HTML文件中标题的字体未正确显示为得意黑体。
安装其他Python库
使用其他Python库非常简便。
目前,GPT还存在一些小问题,例如系统提示未预装Plotly库。为此,我访问了https://pypi.org/,下载了该库,并指导GPT进行了安装。
解决中文显示问题的配置示例
为了确保生成的图表中的文字不出现乱码,即使不上传中文字体,也可以通过在指令中添加“请进行数据分析,创建{XXX}图,图中文本使用中文”来解决。
执行此命令后,我们可以在代码执行过程中观察到相关设置。
上述代码是配置Matplotlib以正确显示中文字符的常用方法。
plt.rcParams['font.sans-serif'] = ['SimHei']
这行代码的目的是设置图表中非衬线字体的默认选项。
font.sans-serif
是指定非衬线字体的参数,而['SimHei']
是一个字体列表,这里使用的是“黑体”(SimHei),它是一种常用的中文黑体字。通过这样设置,Matplotlib会在绘制图表时,默认使用“黑体”来显示中文字符,从而避免中文显示为乱码。plt.rcParams['axes.unicode_minus'] = False
此行代码用于处理在图表中显示负号的问题。在默认情况下,Matplotlib使用的是unicode字符来显示负号。然而,这种默认的负号在某些字体中可能显示为方块或者不显示。设置
'axes.unicode_minus'
为False
可以让Matplotlib使用普通的减号('-')代替unicode负号,这样可以确保即使在各种字体环境下,负号也能正确显示。
让GPT记住你喜欢的字体
如果你希望使用特定的字体而不想每次都上传,可以通过创建一个自定义的GPT配置来实现。
下面是我如何设置这种配置的分享:
数据可视化资源推荐
Data Viz Project: 提供多种图表类型,并详细说明每种图表的适用场景和制作方法。它的一个显著特点是图表展示风格简约,并且直观地显示了哪种表格输入适合的对应图表。
网站: datavizproject.com
Highcharts: 商业图表库,提供多种可定制的图表类型。这个图表库的设计非常美观,且提供了多种类型的图表。
网站: https://www.highcharts.com/demo
此外,它还提供了demo图表的原始表格数据下载选项,方便用户下载并用于练习。
我截图让GPT做出类似图表。
Plotly: 支持Python、R和JavaScript的图表库,适合创建交互式图表。
网站: https://plotly.com/python/
探索更多数据分析资源
要想更深入了解数据分析,那就需要找到优秀的数据集,这里推荐Kaggle数据集。
https://www.kaggle.com/datasets
Kaggle数据集是由Kaggle平台提供的公开数据资源,涵盖了广泛的领域和主题,供用户下载和使用。这些数据集可用于学习、研究、项目开发和参加竞赛。
数据集的来源
公司和组织:许多企业和组织会提供他们的真实数据进行竞赛或共享。 政府和公共机构:这些机构提供的开放数据集通常用于社会研究和公共政策分析。 个人用户:Kaggle社区中的个人用户也可以上传和分享他们收集和整理的数据集。
数据集的类型
结构化数据:如表格数据,常见于CSV文件或Excel表格中。 图像数据:包括各种图片和相关标签,用于计算机视觉任务。 文本数据:如新闻文章、社交媒体帖子、产品评论等,用于自然语言处理。 时间序列数据:如股票价格、传感器数据,用于时间序列分析。
数据集的优势
免费和公开:大多数数据集是免费的,用户可以自由下载和使用。 高质量和详细描述:数据集通常附带详细的描述和数据字典,帮助用户理解数据。 社区支持:用户可以在Kaggle社区中讨论数据集,分享分析结果和经验。
优秀示例数据集
Titanic: Machine Learning from Disaster:经典的机器学习入门数据集。 House Prices: Advanced Regression Techniques:用于房价预测的回归分析数据集。 MNIST:手写数字识别的数据集,广泛用于图像分类任务。
结语
通过3篇文章的介绍,相信大家已经对如何利用 ChatGPT 和Python库进行数据分析有了更深入的了解。ChatGPT为我们提供了一个便捷的交互式界面,让我们可以轻松地探索和实现这些功能。
让我们一起利用好手中的工具,在数据的海洋中尽情遨游,发现隐藏的价值和洞见吧!
欢迎留言分享你的见解。
精选历史文章,请看这里:
你还在手动排版公众号文章?看看 ChatGPT 怎么轻松搞定 | PPT、MD、CSV 批量转公众号排版
不只是快,新版 ChatGPT 数据分析体验全记录,分享超实用 AI 提示词,助你轻松驾驭复杂数据分析
推荐一个自动生成复杂提示词的模版:思考链(CoT)如何通过分步推理提升AI任务准确性 | 示例详解